16.4 Многомерные распределения

До этого мы рассматривали только одномерные распределения вероятностей на числовой прямой. Однако ничто не мешает в качестве носителя Ω\Omega выбрать пространство более высокой размерности. И снова все представляющие практический интерес распределения делятся на два класса: дискретные и непрерывные.

Дискретные многомерные распределения

Пусть, например, эксперимент состоит из двух фаз: сначала подбрасывается монетка, а затем кубик. Тогда вероятностная масса сосредоточена в точках (i,j)(i, j), i=0,1i=0, 1, 1j61\leqslant j \leqslant 6. Вероятность каждого исхода можно записать в виде таблицы

«Неудача»

«Успех»

112\frac 1{12}

112\frac 1{12}

112\frac 1{12}

112\frac 1{12}

112\frac 1{12}

112\frac 1{12}

112\frac 1{12}

112\frac 1{12}

112\frac 1{12}

112\frac 1{12}

112\frac 1{12}

112\frac 1{12}

Результат подбрасывания монеты моделирует бернуллиевская случайная величина ξ\xi, а результат броска кубика — равномерно распределённая на множестве {1,2,3,4,5,6}\{1,2,3,4,5,6\} случайная величина η\eta. Содержимое таблицы вероятностей каждого исхода можно также представить матрицей

P=(112112112112112112112112112112112112)}ηξ, P = \overbrace{\left.\begin{pmatrix} \frac 1{12} & \frac 1{12} & \frac 1{12} & \frac 1{12} & \frac 1{12} & \frac 1{12} \\ \frac 1{12} & \frac 1{12} & \frac 1{12} & \frac 1{12} & \frac 1{12} & \frac 1{12} \end{pmatrix}\right\}}^\eta \xi,

которая задаёт совместное распределение случайных величин ξ\xi и η\eta: P(ξ=i,η=j)=Pij\mathbb P(\xi = i, \eta = j) = P_{ij}. Пару случайных величин (ξ,η)(\xi, \eta) в таком контексте называют также случайным вектором.

Вступайте в сообщество хендбука

Здесь можно найти единомышленников, экспертов и просто интересных собеседников. А ещё — получить помощь или поделиться знаниями.

Элементы матрицы PP не обязаны совпадать; например, монета может быть несимметричной с вероятностью «успеха» pp, и тогда таблица вероятностей примет вид

«Неудача»

«Успех»

1p6\frac {1-p}{6}

p6\frac p{6}

1p6\frac {1-p}{6}

p6\frac p{6}

1p6\frac {1-p}{6}

p6\frac p{6}

1p6\frac {1-p}{6}

p6\frac p{6}

1p6\frac {1-p}{6}

p6\frac p{6}

1p6\frac {1-p}{6}

p6\frac p{6}

Контрольный вопрос. Какая таблица вероятностей соответствует эксперименту, в котором результат подбрасывания монеты «портит» кубик следующим образом: на нём могут равновероятно выпасть только значения 11 или 22 в случае «неудачи» и 44, 55 или 66 в случае «успеха»?

Ответ

«Неудача»

«Успех»

14\frac 1{4}

00

14\frac 1{4}

00

00

00

00

16\frac 1{6}

00

16\frac 1{6}

00

16\frac 1{6}

В общем случае дискретное nn-мерное распределение задаётся многомерным тензором из неотрицательных чисел pi1inp_{i_1\ldots i_n}, суммирующихся в единицу. Такие тензоры используются для задания совместного распределения вероятностей случайного вектора (ξ1,,ξn)(\xi_1, \ldots, \xi_n) из дискретных случайных величин:

P(ξ1=i1,ξ2=i2,,ξn=in)=pi1i2in. \mathbb P(\xi_1 = i_1, \xi_2 = i_2, \ldots, \xi_n = i_n) = p_{i_1i_2\ldots i_n}.

Непрерывные многомерные распределения

Непрерывное распределение на плоскости задаётся плотностью p(x,y)0p(x, y) \geqslant 0; при этом вероятность события AR2A\subset \mathbb R^2 равна

P(A)=Ap(x,y)dxdy \mathbb P(A) = \iint\limits_{A} p(x, y)\,dxdy

при условии, что этот интеграл имеет смысл. Простейший пример — равномерное распределение на единичном квадрате [0,1]2[0,1]^2: его плотность равна I[0,1]2(x,y)\mathbb I_{[0, 1]^2}(x, y), и

P(A)=Adxdy=A для A[0,1]2.\mathbb P(A) = \iint \limits_{A} dxdy = \vert A\vert \text{ для } A\subset [0,1]^2.

Именно так на единичном квадрате формально определяется геометрическая вероятность.

Плотность непрерывного распределения в Rn\mathbb R^n является неотрицательной функцией вида p(x1,,xn)p(x_1, \ldots, x_n) со свойством

Rnp(x1,,xn)dx1dxn=1. \int_{\mathbb R^n} p(x_1, \ldots, x_n)\,dx_1\ldots dx_n = 1.

Говорят, что случайный вектор ξ=(ξ1,,ξn)\boldsymbol \xi = (\xi_1, \ldots, \xi_n) имеет совместную плотность pξ(x1,,xn)p_{\boldsymbol \xi}(x_1, \ldots, x_n), если

P(ξA)=Ap(x1,,xn)dx1dxn \mathbb P(\boldsymbol \xi \in A) = \int\limits_A p(x_1, \ldots, x_n)\,dx_1\ldots dx_n

для всех достаточно «хороших» (измеримых по Лебегу) множеств ARnA \subset \mathbb R^n.

Маргинальные распределения

Из совместного распределения можно получить распределение в пространстве меньшей размерности путём суммирования или интегрирования по части переменных. Например, если матрица PijP_{ij} задаёт совместное распределение случайных величин ξ\xi и η\eta, Pij=P(ξ=i,η=j)P_{ij} = \mathbb P(\xi = i, \eta = j), то каждый из наборов чисел

qi=jPij,rj=iPij, q_i = \sum\limits_j P_{ij}, \quad r_j = \sum\limits_i P_{ij},

неотрицателен и суммируется в единицу:

iqi=jrj=i,jPij=1. \sum\limits_i q_i = \sum\limits_j r_j = \sum\limits_{i, j} P_{ij} = 1.

Таким образом, числа {qi}\{q_i\} и {rj}\{r_j\} задают некоторые распределения вероятностей, называемые маргинальными.

Упражнение. Найдите маргинальные распределения, если совместное распределение задано матрицей

а) (1p61p61p61p61p61p6p6p6p6p6p6p6);\text{а) } \begin{pmatrix} \frac {1-p}6 & \frac {1-p}6 & \frac {1-p}6 & \frac {1-p}6 & \frac {1-p}6 & \frac {1-p}6 \\ \frac p6 & \frac p6 & \frac p6 & \frac p6 & \frac p6 & \frac p6 \end{pmatrix};\quad

б) (14140000161616000).\text{б) } \begin{pmatrix} \frac 1{4} & \frac 14 & 0 & 0 & 0 & 0 \\ \frac 16& \frac 16& \frac 16 & 0 & 0 & 0 \\ \end{pmatrix}.

Ответ

Суммируя столбцы этих матриц, получаем вероятности (1p,p)(1-p, p) в случае а) и (12,12)\big(\frac 12, \frac 12\big) в случае б). Если же суммировать строки, то получаются наборы

а) (16,16,16,16,16,16);б) (512,512,16,0,0,0).\text{а) } \Big(\frac 16, \frac 16,\frac 16,\frac 16,\frac 16,\frac 16 \Big);\quad \text{б) } \Big(\frac 5{12}, \frac 5{12},\frac 16,0,0,0 \Big).

Заметим, что в п. а) после маргинализации получились в точности распределения вероятностей компонент случайного вектора (ξ,η)(\xi, \eta) из приведённого выше примера. Это следствие независимости случайных величин ξ\xi и η\eta.

В непрерывном случае ситуация похожая: если случайный вектор имеет совместную плотность p(x,y)p(x,y), то функции

q(x)=p(x,y)dy,r(y)=p(x,y)dx q(x) = \int\limits_{-\infty}^\infty p(x, y)\,dy, \quad r(y) = \int\limits_{-\infty}^\infty p(x, y)\,dx

являются плотностями маргинальных распределений.

Для nn-мерных распределений можно находить маргинальные распределения, суммируя или интегрируя по любым наборам переменных с индексами 1i1<i2<<ikn1\leqslant i_1 < i_2 < \ldots < i_k \leqslant n; в результате получится маргинальное распределение по оставшимся nkn-k переменным.

Независимость случайных величин

Случайные величины ξ\xi и η\eta называются независимыми, если совместное распределение случайного вектора (ξ,η)(\xi, \eta) распадается на произведение одномерных. Точнее говоря,

  • дискретные случайные величины ξ\xi и η\eta независимы, если P(ξ=xi,η=yj)=P(ξ=xi)P(η=yj)\mathbb P(\xi = x_i, \eta = y_j) = \mathbb P(\xi = x_i)\mathbb P(\eta = y_j) для всех возможных xix_i и yjy_j;
  • непрерывные случайные величины ξ\xi и η\eta независимы, если их совместная плотность
    p(x,y)=pξ(x)pη(y)p(x, y) = p_\xi(x)p_\eta(y).

Если случайные величины ξ\xi и η\eta независимы, то распределение каждой из них является маргинальным распределением их совместного распределения, поскольку

iP(ξ=xi)P(η=yj)=P(η=yj), \sum\limits_i\mathbb P(\xi = x_i)\mathbb P(\eta = y_j) = \mathbb P(\eta = y_j),

jP(ξ=xi)P(η=yj)=P(ξ=xi), \sum\limits_j\mathbb P(\xi = x_i)\mathbb P(\eta = y_j) = \mathbb P(\xi = x_i),

и

+pξ(x)pη(y)dx=pη(y), \int\limits_{-\infty}^{+\infty} p_\xi(x)p_\eta(y) dx = p_\eta(y),

+pξ(x)pη(y)dy=pξ(x). \int\limits_{-\infty}^{+\infty} p_\xi(x)p_\eta(y) dy = p_\xi(x).

Случайные величины (ξ1,,ξn)(\xi_1, \ldots, \xi_n) независимы в совокупности, если их совместное распределение (совместная плотность) распадается в произведение одномерных распределений (плотностей).

Пример. Рассмотрим nn гауссовских случайных величин ξkN(μk,σk2)\xi_k \sim \mathcal N(\mu_k, \sigma_k^2) с плотностями

pξk(xk)=12πσke(xkμk)22σk2. p_{\xi_k}(x_k) = \frac 1{\sqrt{2\pi}\sigma_k} e^{-\frac{(x_k - \mu_k)^2}{2\sigma_k^2}}.

Совместную плотность случайного вектора ξ=(ξ1,,ξn)\boldsymbol \xi = (\xi_1, \ldots, \xi_n) определим как произведение плотностей его компонент:

pξ(x1,,xn)=pξ1(x1)pξn(xn)=1(2π)n/2σ1σne12k=1n(xkμk)2σk2. p_{\boldsymbol \xi}(x_1, \ldots, x_n) = p_{\xi_1}(x_1)\ldots p_{\xi_n}(x_n) = \frac 1{(2\pi)^{n/2}\sigma_1\ldots\sigma_n} e^{-\frac 12\sum\limits_{k=1}^n \frac{(x_k - \mu_k)^2}{\sigma_k^2}}.

Случайный вектор ξ\boldsymbol \xi с такой плотностью имеет многомерное нормальное (гауссовское) распределение c независимыми в совокупности компонентами. Любое маргинальное распределение случайного вектора ξ\boldsymbol \xi обладает плотностью того же вида, и поэтому также является гауссовским.

Характеристики случайных векторов

Математическое ожидание случайного вектора ξ=(ξ1,,ξn)\boldsymbol \xi = (\xi_1, \ldots, \xi_n) является вектором той же размерности и вычисляется покомпонентно:

Eξ=(Eξ1,,Eξn). \mathbb E \boldsymbol \xi = (\mathbb E \xi_1, \ldots, \mathbb E\xi_n).

Каждая компонента случайного вектора — это обычная случайная величина, и её среднее можно вычислить стандартными методами:

  • Eξk=i1,,inikpi1in\mathbb E\xi_k = \sum\limits_{i_1, \ldots, i_n} i_k p_{i_1\ldots i_n} в дискретном случае;
  • Eξk=Rnxkp(x1,,xn),dx1dxn\mathbb{E}\xi_k=\int\limits_{\mathbb{R}^n}x_kp(x_1,\ldots,x_n),dx_1\ldots dx_n в непрерывном случае.

Математическое ожидание перестановочно с линейным преобразованием случайного вектора: E(Cξ)=CEξ\mathbb E(\boldsymbol{C\xi}) = \boldsymbol C \mathbb E \boldsymbol \xi, где C\boldsymbol C — фиксированная матрица.

Вместо дисперсии у случайного вектора ξ=(ξ1,,ξn)\boldsymbol \xi = (\xi_1, \ldots, \xi_n) есть матрица ковариаций:

Vξ=cov(ξ,ξ)=E(ξEξ)(ξEξ)T. \mathbb V \boldsymbol \xi = \mathrm{cov}(\boldsymbol \xi, \boldsymbol \xi) = \mathbb E\big(\boldsymbol \xi - \mathbb E\boldsymbol \xi\big)\big(\boldsymbol \xi - \mathbb E\boldsymbol \xi\big)^T.

Матрица ковариаций симметрична и состоит из попарных ковариаций компонент случайного вектора ξ\boldsymbol \xi:

cov(ξ,ξ)ij=cov(ξi,ξj). \mathrm{cov}(\boldsymbol \xi, \boldsymbol \xi)_{ij} = \mathrm{cov}(\xi_i, \xi_j).

Упражнение. Докажите, что ковариационная матрица любого случайного вектора неотрицательно определена.

Решение (не открывайте сразу, сначала попробуйте решить самостоятельно)

Пользуясь линейностью математического ожидания, получаем

xTcov(ξ,ξ)x=ExT(ξEξ)(ξEξ)Tx= \boldsymbol x^T\mathrm{cov}(\boldsymbol\xi, \boldsymbol\xi)\boldsymbol x = \mathbb{E}\boldsymbol x^T(\boldsymbol\xi - \mathbb{E}\boldsymbol\xi)(\boldsymbol\xi - \mathbb{E}\boldsymbol\xi)^T\boldsymbol x =

=E(xTξE(xTξ))(xTξE(xTξ))T=cov(xTξ,xTξ)=V(xTξ)0. =\mathbb{E}\left(\boldsymbol x^T\boldsymbol\xi - \mathbb{E}(\boldsymbol x^T\boldsymbol\xi)\right)\cdot\left(\boldsymbol x^T\boldsymbol\xi - \mathbb{E}(\boldsymbol x^T\boldsymbol\xi)\right)^T = \mathrm{cov}\left(\boldsymbol x^T\boldsymbol\xi, \boldsymbol x^T\boldsymbol\xi\right)=\mathbb{V}(\boldsymbol x^T\boldsymbol\xi)\geqslant 0.

Если случайные величины ξ1,,ξn\xi_1, \ldots, \xi_n независимы в совокупности, то cov(ξi,ξj)=0\mathrm{cov}(\xi_i, \xi_j) = 0, и ковариационая матрица случайного вектора ξ=(ξ1,,ξn)\boldsymbol \xi = (\xi_1, \ldots, \xi_n) диагональна:

cov(ξ,ξ)=diag{Vξ1,,Vξn}.\mathrm{cov}(\boldsymbol \xi , \boldsymbol \xi) = \mathrm{diag}\{\mathbb V \xi_1, \ldots, \mathbb V \xi_n\}.

Например, матрица ковариации гауссовского случайного вектора ξ\boldsymbol \xi с плотностью

pξ(x1,,xn)=1(2π)n/2σ1σne12k=1n(xkμk)2σk2=k=1n12πσke(xkμk)22σk2p_{\boldsymbol \xi}(x_1, \ldots, x_n) = \frac 1{(2\pi)^{n/2}\sigma_1\ldots\sigma_n} e^{-\frac 12\sum\limits_{k=1}^n \frac{(x_k - \mu_k)^2}{\sigma_k^2}} = \prod\limits_{k=1}^n \frac 1{\sqrt{2\pi}\sigma_k} e^{-\frac{(x_k - \mu_k)^2}{2\sigma_k^2}}

равна diag{σ12,,σn2}\mathrm{diag}\{\sigma_1^2, \ldots, \sigma_n^2\}, поскольку компоненты вектора ξ\boldsymbol \xi независимы в совокупности и имеют нормальное распределение N(μk,σk2)\mathcal N(\mu_k, \sigma_k^2).

Аналогом ковариации в многомерном случае служит матрица ковариаций между случайными векторами ξ=(ξ1,,ξn)\boldsymbol \xi = (\xi_1, \ldots, \xi_n) и η=(η1,,ηn)\boldsymbol \eta = (\eta_1, \ldots, \eta_n):

cov(ξ,η)=E(ξEξ)(ηEη)T. \mathrm{cov}(\boldsymbol \xi, \boldsymbol \eta) = \mathbb E\big(\boldsymbol \xi - \mathbb E\boldsymbol \xi\big)\big(\boldsymbol \eta - \mathbb E\boldsymbol \eta\big)^T.

Матрицу ковариаций можно также вычислить по формуле

cov(ξ,η)=EξηTEξ(Eη)T. \mathrm{cov}(\boldsymbol \xi, \boldsymbol \eta) = \mathbb E\boldsymbol \xi\boldsymbol \eta^T - \mathbb E\boldsymbol \xi(\mathbb E\boldsymbol \eta)^T.

Упражнение. Пусть случайный вектор η\boldsymbol \eta получен из случайного вектора ξ\boldsymbol \xi линейным преобразованием: η=Cξ\boldsymbol \eta = \boldsymbol {C\xi}. Как связаны между собой их ковариационные матрицы?

Решение (не открывайте сразу, сначала попробуйте решить самостоятельно)

Распишем по определению:

cov(Cξ,Cξ)=E(CξE(Cξ))(CξE(Cξ))T= \mathrm{cov}(\boldsymbol{C\xi}, \boldsymbol{C\xi}) = \mathbb{E}\big(\boldsymbol{C\xi} - \mathbb{E}(\boldsymbol{C\xi})\big)\big(\boldsymbol{C\xi} - \mathbb{E}(\boldsymbol{C\xi})\big)^T =

=EC(ξEξ)(ξEξ)TCT=Ccov(ξ,ξ)CT. =\mathbb{E}\boldsymbol C(\boldsymbol \xi - \mathbb{E}\boldsymbol \xi)(\boldsymbol \xi - \mathbb{E}\boldsymbol \xi)^T\boldsymbol C^T = \boldsymbol C\mathrm{cov}(\boldsymbol \xi, \boldsymbol \xi)\boldsymbol C^T.

Преобразования плотностей случайных векторов

Нередко приходится иметь дело не с самими случайными векторами, а с функциями от них. Но как найти плотность случайного вектора η=g(ξ)\boldsymbol \eta = g(\boldsymbol \xi), зная плотность pξ(x)p_{\boldsymbol \xi}(\boldsymbol x)?

Предположим, что g ⁣:RnRng \colon \mathbb R^n \to \mathbb R^n — гладкая обратимая функция. Тогда для измеримого ARnA\subset \mathbb R^n имеем

P(ηA)=P(g(ξ)A)=P(ξg1(A))=g1(A)pξ(x)dx\mathbb{P}(\boldsymbol{\eta}\in A)=\mathbb{P}\big(g(\boldsymbol{\xi})\in A\big)=\mathbb{P}\big(\boldsymbol{\xi}\in g^{-1}(A)\big)=\int\limits_{g^{-1}(A)}p_{\boldsymbol{\xi}}(x)d\boldsymbol{x}

Чтобы перейти к интегралу по AA, сделаем замену переменной x=g1(z)\boldsymbol x = g^{-1}(\boldsymbol z). По формуле замены координат в кратном интеграле получаем

g1(A)pξ(x)dx=Apξ(g1(z))detJ(z)dz,\int\limits_{g^{-1}(A)}p_{\boldsymbol \xi}(\boldsymbol x)d\boldsymbol x = \int\limits_{A}p_{\boldsymbol \xi}(g^{-1}(\boldsymbol z))\vert \det J(\boldsymbol z) \vert d\boldsymbol z,

где detJ(z)\det J(\boldsymbol z) – якобиан преобразования g1(z)g^{-1}(\boldsymbol z), т.е. определитель матрицы Якоби J(z)=g1(z)zJ(\boldsymbol z) = \frac{\partial g^{-1}(\boldsymbol z)}{\partial \boldsymbol z}.
Таким образом,

pη(z)=pξ(g1(z))detJ(z).p_{\boldsymbol \eta}(\boldsymbol z) = p_{\boldsymbol \xi}(g^{-1}(\boldsymbol z))\vert \det J(\boldsymbol z)\vert.

Упражнение. Пусть ξ\boldsymbol \xi – случайный вектор с плотностью pξ(x)p_{\boldsymbol \xi}(\boldsymbol x). Какова плотность случайного вектора η=μ+Cξ\boldsymbol\eta = \boldsymbol\mu + \boldsymbol{C\xi}, где μ\boldsymbol \mu – постоянный вектор, а C\boldsymbol C – постоянная обратимая матрица?

Решение (не открывайте сразу, сначала попробуйте решить самостоятельно)

В данном случае g(x)=μ+Cxg(\boldsymbol x) = \boldsymbol\mu + \boldsymbol{Cx}, g1(z)=C1(zμ)g^{-1}(\boldsymbol z) = \boldsymbol C^{-1}(\boldsymbol z - \boldsymbol\mu). Матрица Якоби преобразования g1g^{-1} равна C1\boldsymbol C^{-1}. Следовательно,

pη(z)=1det(C)pξ(C1(zμ)). p_{\boldsymbol \eta}(\boldsymbol z) = \frac1{\vert\det(\boldsymbol C)\vert}p_{\boldsymbol \xi}(\boldsymbol C^{-1}(\boldsymbol z - \boldsymbol\mu)).

Распределение суммы независимых случайных величин

В дискретном случае найти распределение суммы двух независимых случайных величин несложно. В самом деле,

P(ξ+η=k)=iP(ξ+η=k,η=i)=iP(ξ=ki,η=i).\mathbb{P}(\xi + \eta = k) = \sum_{i}\mathbb{P}(\xi + \eta = k, \eta = i)= \sum_{i}\mathbb{P}(\xi = k - i, \eta = i).

В силу независимости случайных величин ξ\xi и η\eta последняя сумма равна

iP(ξ=ki)P(η=i).\sum_{i}\mathbb{P}(\xi = k-i)\mathbb{P}(\eta = i).

Полученная формула называется формулой свёртки.

Пусть теперь ξ1\xi_1 и ξ2\xi_2 – независимые непрерывные случайные величины с плотностями pξ1(x)p_{\xi_1}(x) и pξ2(x)p_{\xi_2}(x) соответственно. Сам собой напрашивается аналог формулы свёртки с плотностями вместо вероятностей, но чтобы достаточно строго вывести его и не запутаться, мы немного схитрим. А именно, мы рассмотрим случайный вектор ξ=(ξ1,ξ2)T\boldsymbol\xi = (\xi_1, \xi_2)^T и его (обратимое!) преобразование

g(ξ)=(ξ1+ξ2ξ2)=(1101)ξ=:η=(η1η2).g(\boldsymbol\xi) = \begin{pmatrix}\xi_1 + \xi_2\\ \xi_2\end{pmatrix} = \begin{pmatrix}1 & 1\\ 0& 1\end{pmatrix}\boldsymbol \xi =: \boldsymbol\eta = \begin{pmatrix}\eta_1 \\ \eta_2\end{pmatrix}.

Обратное к нему будет иметь вид

h(η)=(1101)η=(η1η2η2)h(\boldsymbol \eta) = \begin{pmatrix}1 & -1\\ 0 & 1\end{pmatrix}\boldsymbol\eta = \begin{pmatrix} \eta_1 - \eta_2\\ \eta_2\end{pmatrix}

Тогда по правилу преобразования плотности

pη(z)=det(1101)=1pξ(z1z2,z2)=pξ1(z1z2)pξ2(z2),p_{\boldsymbol\eta}(\boldsymbol z) = \underbrace{\left|\text{det}\begin{pmatrix}1 & -1 \\ 0 & 1\end{pmatrix}\right|}_{=1}p_{\boldsymbol\xi}\left(z_1 - z_2, z_2\right) = p_{\xi_1}(z_1 - z_2)p_{\xi_2}(z_2),

где в последнем равенстве мы воспользовались независимостью ξ1\xi_1 и ξ2\xi_2. Распределение случайной величины η1=ξ1+ξ2\eta_1 = \xi_1+\xi_2 – это маргинальное распределение, которое вычисляется следующим образом:

pη1(y)=+pξ1(yx)pξ2(x)dx.p_{\eta_1}(y) = \int\limits_{-\infty}^{+\infty}p_{\xi_1}(y - x)p_{\xi_2}(x)dx.

Эта формула также называется формулой свёртки.

Примеры многомерных распределений

Рассмотрим несколько популярных распределений случайных векторов.

Мультиномиальное распределение

Биномиальное распределение Bin(n,p)\mathrm{Bin}(n, p) моделирует nn-кратное подбрасывание монеты с вероятностями «успеха» pp и «неудачи» q=1pq = 1-p. Мультиномиальное распределение обобщает этот эксперимент: теперь подбрасывается кубик с k2k\geqslant 2 гранями, и вероятность выпадения ii-й грани равна pip_i, i=1kpi=1\sum\limits_{i=1}^k p_i = 1. Обозначим через ξi\xi_i количество выпадений ii-й грани в серии из nn бросков. Тогда случайный вектор ξ=(ξ1,,ξk)\boldsymbol \xi = (\xi_1, \ldots, \xi_k) имеет мультиномиальное распределение, при котором

P(ξ1=m1,,ξk=mk)=n!m1!mk!p1m1pkmk, \mathbb P(\xi_1 = m_1, \ldots, \xi_k = m_k) = \frac{n!}{m_1!\cdot \ldots \cdot m_k!} p_1^{m_1}\cdot \ldots \cdot p_k^{m_k},

i=1kmi=n. \sum\limits_{i = 1}^k m_i = n.

При n=1n=1 мультиномиальное распределение превращается в категориальное, известное также под названием multinoulli. Категориальное распределение моделирует случайный выбор одного из kk классов с заданными вероятностями (p1,,pk)(p_1, \ldots, p_k).

Многомерное нормальное распределение

Многомерное нормальное (гауссовское) распределение задаётся функцией плотности

p(x)=1(2π)n/2detΣexp(12(xμ)TΣ1(xμ)),p(\boldsymbol x) = \frac1{(2\pi)^{n/2}\sqrt{\det\boldsymbol\Sigma}}\exp\left(-\frac12(\boldsymbol x - \boldsymbol\mu)^T\boldsymbol\Sigma^{-1}(\boldsymbol x - \boldsymbol\mu)\right),

где x,μRn\boldsymbol x, \boldsymbol \mu\in\mathbb{R}^n, Σ\boldsymbol\Sigma — невырожденная симметричная матрица размера n×nn\times n. Такое распределение обозначается N(μ,Σ)\mathcal{N}(\boldsymbol\mu, \boldsymbol\Sigma).

Если случайный вектор ξN(μ,Σ)\boldsymbol \xi \sim \mathcal{N}(\boldsymbol\mu, \boldsymbol\Sigma), то Eξ=μ\mathbb E\boldsymbol \xi =\boldsymbol \mu, cov(ξ,ξ)=Σ\mathrm{cov}(\boldsymbol \xi, \boldsymbol \xi ) = \boldsymbol \Sigma; таким образом, параметры гауссовского распределения — это его среднее и матрица ковариаций.

Упражнение. Пусть ξN(μ,Σ)\boldsymbol \xi \sim \mathcal{N}(\boldsymbol\mu, \boldsymbol\Sigma) и η=Aξ+b\boldsymbol \eta = \boldsymbol{A\xi} + \boldsymbol b. Докажите, что ηN(Aμ+b,AΣAT)\boldsymbol \eta \sim \mathcal{N}(\boldsymbol{A\mu} + \boldsymbol b, \boldsymbol{A\Sigma A}^T).

Решение (не открывайте сразу, сначала попробуйте решить самостоятельно)

Если бы нам стало известно, что вектор η\boldsymbol \eta гауссовский, то мы нашли бы его параметры по стандартным формулам:

Eη=E(Aξ+b)=AEξ+b=Aμ+b, \mathbb E\boldsymbol \eta = \mathbb E (\boldsymbol{A\xi} + \boldsymbol b) = \boldsymbol A\mathbb E \boldsymbol \xi + \boldsymbol b = \boldsymbol{A\mu} + \boldsymbol b,

cov(η,η)=cov(Aξ+b,Aξ+b)=Acov(ξ,ξ)AT=AΣAT. \mathrm{cov}(\boldsymbol \eta, \boldsymbol \eta) = \mathrm{cov}(\boldsymbol{A\xi} + \boldsymbol b, \boldsymbol{A\xi} + \boldsymbol b) = \boldsymbol A \mathrm{cov}(\boldsymbol \xi, \boldsymbol \xi) \boldsymbol A^T = \boldsymbol{A\Sigma A}^T.

Решим задачу честно в предположении, что матрица A\boldsymbol A квадратная и невырожденная. Для этого воспользуемся формулой плотности линейного преобразования случайного вектора:

pη(z)=1 ⁣det(A)pξ(A1(zb))=p_{\boldsymbol \eta}(\boldsymbol z) = \frac1{\vert\!\det(\boldsymbol A)\vert}p_{\boldsymbol \xi}(\boldsymbol A^{-1}(\boldsymbol z - \boldsymbol b)) =

=1(2π)n/2detΣdet(A)exp(12(A1zA1bμ)TΣ1(A1zA1bμ))== \frac1{(2\pi)^{n/2}\sqrt{\det\boldsymbol\Sigma}\vert\det(\boldsymbol A)\vert}\exp\left(-\frac12(\boldsymbol A^{-1}\boldsymbol z - \boldsymbol A^{-1}\boldsymbol b - \boldsymbol\mu)^T\boldsymbol\Sigma^{-1}(\boldsymbol A^{-1}\boldsymbol z - \boldsymbol A^{-1}\boldsymbol b - \boldsymbol\mu)\right) =

=1(2π)n/2detAΣATexp(12(zbAμ)TATΣ1A1(zbAμ)).= \frac1{(2\pi)^{n/2}\sqrt{\det\boldsymbol{A\Sigma A}^T}}\exp\left(-\frac12(\boldsymbol z - \boldsymbol b - \boldsymbol{A\mu})^T \boldsymbol A^{-T}\boldsymbol\Sigma^{-1}\boldsymbol A^{-1}(\boldsymbol z - \boldsymbol b - \boldsymbol{A\mu})\right).

В полученном выражении нетрудно узнать плотность гауссовского распределения N(Aμ+b,AΣAT)\mathcal{N}(\boldsymbol{A\mu} + \boldsymbol b, \boldsymbol{A\Sigma A}^T).

Заметим, что утверждение сохраняет силу и для случая прямоугольной матрицы A\boldsymbol A размера m×nm\times n, где nn — размерность случайного вектора ξ\boldsymbol \xi.

Важный частный случай случайного гауссовского вектора с независимыми компонентами был рассмотрен в примере из секции про независимость случайных величин. Такое распределение получается, если матрица Σ\boldsymbol\Sigma диагональна, Σ=diag{σ12,,σn2}\boldsymbol\Sigma = \mathrm{diag}\{\sigma_1^2, \ldots, \sigma_n^2\}. Тогда detΣ=σ1σn\sqrt{\det \boldsymbol\Sigma} = \sigma_1 \ldots \sigma_n, Σ1=diag{1σ12,,1σn2}\boldsymbol\Sigma^{-1} = \mathrm{diag}\big\{\frac1{\sigma_1^2}, \ldots, \frac 1{\sigma_n^2}\big\}, и поэтому

12(xμ)TΣ1(xμ)=12k=1n(xkμk)2σk2.-\frac12(\boldsymbol x - \boldsymbol\mu)^T\boldsymbol\Sigma^{-1}(\boldsymbol x - \boldsymbol\mu) = -\frac 12 \sum\limits_{k=1}^n \frac{(x_k-\mu_k)^2}{\sigma_k^2}.

Отсюда снова получаем формулу совместной плотности

pξ(x)=1(2π)n/2σ1σne12k=1n(xkμk)2σk2, p_{\boldsymbol \xi}(\boldsymbol x) = \frac 1{(2\pi)^{n/2}\sigma_1\ldots\sigma_n} e^{-\frac 12\sum\limits_{k=1}^n \frac{(x_k - \mu_k)^2}{\sigma_k^2}},

которую можно переписать в виде

k=1n12πσke(xkμk)22σk2=k=1npξk(xk),ξkN(ξk,σk2), \prod\limits_{k=1}^n \frac 1{\sqrt{2\pi}\sigma_k} e^{-\frac{(x_k - \mu_k)^2}{2\sigma_k^2}} = \prod\limits_{k=1}^n p_{\xi_k}(x_k), \xi_k \sim \mathcal N(\xi_k, \sigma_k^2),

откуда следует независимость в совокупности компонент вектора ξ\boldsymbol \xi.

Если ковариационная матрица Σ\boldsymbol \Sigma не является диагональной, то отдельные компоненты случайного вектора ξN(μ,Σ)\boldsymbol \xi \sim \mathcal{N}(\boldsymbol\mu, \boldsymbol\Sigma) зависимы. Тем не менее, всегда найдётся линейное (и даже ортогональное) преобразование, которое превратит вектор ξ\boldsymbol \xi в гауссовский вектор с независимыми компонентами. Для этого достаточно найти ортогональную матрицу Q\boldsymbol Q со свойством

QΣQT=diag{σ12,,σn2},\boldsymbol Q \boldsymbol \Sigma \boldsymbol Q^T = \mathrm{diag}\big\{\sigma_1^2,\ldots,\sigma_n^2\big\},

и далее воспользоваться формулой плотности линейного преобразования гауссовского вектора.

По тем же соображениям облако точек, сгенерированных из распределения N(μ,Σ)\mathcal{N}(\boldsymbol\mu, \boldsymbol\Sigma), будет напоминать эллипсоид с полуосями, пропорциональными вектору (σ12,,σn2)(\sigma_1^2,\ldots,\sigma_n^2). Линии уровня плотности p(x)p(\boldsymbol x) задаются уравнениями вида p(x)=Cp(\boldsymbol x) = C, а такое равенство эквивалентно квадратичной форме

(xμ)TΣ1(xμ)=C1,(\boldsymbol x - \boldsymbol\mu)^T\boldsymbol\Sigma^{-1}(\boldsymbol x - \boldsymbol\mu) = C_1,

где CC и C1C_1 – некоторые константы. С помощью описанной выше ортогональной замены эта квадратичная форма может быть приведена к главным осям:

zTΛ1z=C2,Λ=diag{σ12,,σn2}; \boldsymbol z^T \boldsymbol\Lambda^{-1} \boldsymbol z = C_2, \quad \boldsymbol \Lambda = \mathrm{diag}\big\{\sigma_1^2,\ldots,\sigma_n^2\big\};

в координатах это выглядит как

l=1nzk2σk2=C2. \sum\limits_{l=1}^n \frac{z_k^2}{\sigma_k^2} = C_2.

Мы получили практически каноническое уравнение nn-мерного эллипсоида. В R2\mathbb R^2 это будут эллипсы, сплюснутые тем сильнее, чем дальше от единицы отношение κ=σ1σ2\kappa = \frac{\sigma_1}{\sigma_2} собственных значений матрицы Σ\boldsymbol \Sigma.

Нормальным будет и всякое маргинальное распределение многомерного гауссовского вектора.

Упражнение. Пусть случайный вектор ξ=(ξ1,ξ2)\boldsymbol \xi = (\boldsymbol\xi_1, \boldsymbol \xi_2) имеет гауссовское распределение с параметрами

μ=(μ1μ2),Σ=(Σ11Σ12Σ12TΣ22), \boldsymbol \mu = \begin{pmatrix}\boldsymbol \mu_1 \\ \boldsymbol \mu_2 \end{pmatrix}, \quad \boldsymbol \Sigma = \begin{pmatrix} \boldsymbol \Sigma_{11} & \boldsymbol\Sigma_{12} \\ \boldsymbol\Sigma_{12}^T & \boldsymbol\Sigma_{22} \end{pmatrix},

где ξ1,μ1Rk\boldsymbol \xi_1, \boldsymbol \mu_1 \in \mathbb R^k, ξ2,μ2Rnk\boldsymbol \xi_2, \boldsymbol \mu_2 \in \mathbb R^{n-k}, Σ11Matk×k\boldsymbol \Sigma_{11} \in \mathrm{Mat}_{k\times k}, Σ12Matk×(nk)\boldsymbol \Sigma_{12} \in \mathrm{Mat}_{k\times (n-k)}, Σ22Mat(nk)×(nk)\boldsymbol \Sigma_{22} \in \mathrm{Mat}_{(n-k)\times (n-k)}.
Докажите, что случайный вектор ξ1\boldsymbol\xi_1, полученный маргинализацией по компонентам вектора ξ2\boldsymbol\xi_2, является гауссовским с параметрами mu1\boldsymbol \\mu_1 и Σ11\boldsymbol \Sigma_{11}.

Решение (не открывайте сразу, сначала попробуйте решить самостоятельно)

Существует прямое и довольно утомительное решение с многочисленными матричными манипуляциями. Мы поступим хитрее: рассмотрим маргинализацию как линейное преобразование

ξ1=Aξ, где A=(Ik0k×(nk))Matk×n, \boldsymbol\xi_1 = \boldsymbol A\boldsymbol\xi, \text{ где } \boldsymbol A = \begin{pmatrix}\boldsymbol I_{k} & \boldsymbol 0_{k\times(n-k)}\end{pmatrix} \in \mathrm{Mat}_{k\times n},

и воспользуемся результатом предыдущего упражнения. Имеем Aμ=Ikμ1=μ1\boldsymbol A\boldsymbol\mu = \boldsymbol I_{k}\boldsymbol \mu_1 = \boldsymbol \mu_1, AΣAT=IkΣ11IkT=Σ11\boldsymbol A \boldsymbol \Sigma \boldsymbol A^T = \boldsymbol I_{k} \boldsymbol \Sigma_{11}\boldsymbol I_{k}^T = \boldsymbol \Sigma_{11}, и поэтому
ξ1N(μ1,Σ11)\boldsymbol\xi_1 \sim \mathcal N(\boldsymbol \mu_1, \boldsymbol \Sigma_{11}).

Распределение Дирихле

Распределение Дирихле сосредоточено на KK-мерном симплексе

{(x1,,xK) ⁣:x1++xK=1,  xi0}.\{(x_1,\ldots,x_K)\colon x_1 + \ldots + x_K = 1,\; x_i\geqslant 0\}.

Плотность распределения Дирихле Dir(α)\mathrm{Dir}(\boldsymbol \alpha) равна

p(x1,,xK)=1B(α)i=1Kxiαi1,p(x_1,\ldots,x_K) = \frac1{B(\boldsymbol \alpha)}\prod_{i=1}^Kx_i^{\alpha_i - 1},

где α=(α1,,αK)\boldsymbol\alpha = (\alpha_1,\ldots,\alpha_K) – вектор положительных параметров, а B(α)=iΓ(αi)Γ(iαi)B(\boldsymbol\alpha) = \frac{\prod_i\Gamma(\alpha_i)}{\Gamma(\sum_i\alpha_i)} – многомерная бета-функция. Если ξDir(α)\boldsymbol \xi \sim \mathrm{Dir}(\boldsymbol \alpha),
то

Eξ=αα0,cov(ξi,ξj)=α0δijαiαjα02(α0+1),α0=k=1Kαk. \mathbb E \boldsymbol \xi =\frac{\boldsymbol \alpha}{\alpha_0}, \quad \mathrm{cov} (\xi_i, \xi_j)=\frac{\alpha_0 \delta_{ij} - \alpha_i\alpha_j}{\alpha_0^2(\alpha_0 + 1)}, \quad \alpha_0 = \sum\limits_{k=1}^K \alpha_k.

Иллюстрация распределения Дирихле с помощью схемы Пойя

Пусть у нас есть KK категорий и на них задано вероятностное распределение

q(1)=αα0=(α1α0,,αKα0),\boldsymbol q^{(1)} = \frac{\boldsymbol\alpha}{\alpha_0} = \left(\frac{\alpha_1}{\alpha_0},\ldots,\frac{\alpha_K}{\alpha_0}\right),

где α0=i=1Kαi\alpha_0 = \sum\limits_{i=1}^K\alpha_i. Это корректное распределение вероятностей, так как его компоненты неотрицательны и в сумме дают 11. Будем производить следующий процесс:

  • В первый момент генерируем одну из категорий с помощью распределения q(1)\boldsymbol q^{(1)}; допустим, выпала i1i_1-я. Обновляем вероятностное распределение на категориях, прибавив единицу к i1i_1-й компоненте вектора α\boldsymbol\alpha; получаем вектор α(2)\boldsymbol\alpha^{(2)}.
  • На nn-м шаге генерируем одну из категорий с помощью распределения q(n)=α(n)iαi(n)\boldsymbol q^{(n)} = \frac{\boldsymbol \alpha^{(n)}}{\sum\limits_i\alpha^{(n)}_i}. Допустим, выпала ini_n-я. Обновляем вероятностное распределение на категориях, прибавив единицу к ini_n-й компоненте вектора α(n)\boldsymbol\alpha^{(n)}; получаем вектор α(n+1)\boldsymbol\alpha^{(n+1)}.

Можно доказать, что вектор limnq(n)\lim\limits_{n\to\infty} \boldsymbol q^{(n)} подчиняется распределению Дирихле Dir(α)\mathrm{Dir}(\boldsymbol \alpha).

Чтобы стало чуть понятнее, проследим, что будет при различных α\boldsymbol\alpha.

  • Если α=(10,10,10)\boldsymbol\alpha = (10,10,10), то прибавление единицы будет не так сильно смещать вероятности, и дальше мы будем продолжать генерировать категорию из распределения, близкого к равномерному. Скорее всего, в пределе мы будем получать что-то, близкое к (13,13,13)(\frac13, \frac13,\frac13).
  • Если α=(1,1,20)\boldsymbol\alpha = (1,1,20), то почти наверняка мы будем генерить третью категорию, причём со всё большей вероятностью (ведь при этом мы будем увеличивать α3(n)\alpha^{(n)}_3), то есть в пределе будет (почти 00, почти 00, почти 11).
  • Если α=(0.1,0.1,0.1)\boldsymbol\alpha = (0.1,0.1,0.1), то та категория, которую мы сгенерировали на первом шаге, сразу вырвется вперёд и скорее всего будет доминировать в дальнейшем. Таким образом, нам следует ожидать в пределе векторов, в которых одна из компонент почти 11, а остальные почти 00. Важным отличием от предыдущего варианта является то, что здесь почти 11 может быть в любой компоненте.
  • Если α=(1,1,1)\boldsymbol\alpha = (1,1,1), то соответствующее распределение Дирихле будет равномерным.

Также вам может оказаться полезна визуализация плотности этого распределения при разных α\boldsymbol\alpha:

ссылка на источник картинки
Чтобы добавить в заметки выделенный текст, нажмите Command + E

Пройдите квиз по параграфу

Чтобы закрепить пройденный материал
Предыдущий параграф16.3. Вероятностные распределения
Следующий параграф16.5. Независимость и условные распределения вероятностей